Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. We then propose a new method to improve Mixup based on the novel insight. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across various datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
translated by 谷歌翻译
Bayesian Inference offers principled tools to tackle many critical problems with modern neural networks such as poor calibration and generalization, and data inefficiency. However, scaling Bayesian inference to large architectures is challenging and requires restrictive approximations. Monte Carlo Dropout has been widely used as a relatively cheap way for approximate Inference and to estimate uncertainty with deep neural networks. Traditionally, the dropout mask is sampled independently from a fixed distribution. Recent works show that the dropout mask can be viewed as a latent variable, which can be inferred with variational inference. These methods face two important challenges: (a) the posterior distribution over masks can be highly multi-modal which can be difficult to approximate with standard variational inference and (b) it is not trivial to fully utilize sample-dependent information and correlation among dropout masks to improve posterior estimation. In this work, we propose GFlowOut to address these issues. GFlowOut leverages the recently proposed probabilistic framework of Generative Flow Networks (GFlowNets) to learn the posterior distribution over dropout masks. We empirically demonstrate that GFlowOut results in predictive distributions that generalize better to out-of-distribution data, and provide uncertainty estimates which lead to better performance in downstream tasks.
translated by 谷歌翻译
深度神经网络在数据流是I.I.D的规范环境中的预测和分类任务上表现良好,标记的数据很丰富,并且类标签平衡。随着分配变化的挑战,包括非平稳或不平衡数据流。解决了这一挑战的一种强大方法是在大量未标记的数据上对大型编码器进行自我监督的预处理,然后进行特定于任务的调整。鉴于一项新任务,更新这些编码器的权重是具有挑战性的,因为需要微调大量权重,因此,他们忘记了有关先前任务的信息。在目前的工作中,我们提出了一个模型体系结构来解决此问题,以一个离散的瓶颈为基础,其中包含成对的单独和可学习的(键,价值)代码。在此设置中,我们遵循编码;通过离散瓶颈处理表示形式;和解码范式,其中输入被馈送到预处理的编码器中,编码器的输出用于选择最近的键,并将相应的值馈送到解码器以求解当前任务。该模型只能在推理过程中获取和重复使用有限数量的这些(密钥,值)对,从而启用本地化和上下文依赖的模型更新。从理论上讲,我们研究了所提出的模型最小化分布的影响的能力,并表明与(键,值)配对的这种离散瓶颈降低了假设类别的复杂性。我们经验验证了提出的方法在各种基准数据集的挑战性分配转移方案下的好处,并表明所提出的模型将共同的脆弱性降低到非i.i.d。与其他各种基线相比,非平稳培训分布。
translated by 谷歌翻译
本文证明了鲁棒性意味着通过数据依赖性的概括界限进行概括。结果,鲁棒性和概括被证明是以数据依赖性方式紧密连接的。我们的界限改善了以前的两个方向的界限,以解决自2010年以来几乎没有发展的开放问题。第一个是减少对覆盖码的依赖。第二个是消除对假设空间的依赖性。我们提供了几个示例,包括套索和深度学习的例子,其中我们的界限被证明是可取的。关于现实世界数据和理论模型的实验表明,在各种情况下的近乎指数改进。为了实现这些改进,我们不需要关于未知分布的其他假设。取而代之的是,我们仅包含训练样本的可观察到的可计算特性。一个关键的技术创新是对多项式随机变量的改善浓度,它超出了鲁棒性和泛化。
translated by 谷歌翻译
在多任务学习(MTL)中,对联合模型进行了培训,可以同时对几个任务进行预测。联合培训降低了计算成本并提高数据效率;但是,由于这些不同任务的梯度可能需要冲突,因此训练MTL的联合模型通常比其相应的单任务对应人员产生的性能较低。减轻此问题的一种常见方法是使用特定的启发式方法将每个任务梯度组合到联合更新方向上。在本文中,我们建议将梯度组合步骤视为一个议价游戏,在该游戏中,任务就达成了有关参数更新联合方向的协议。在某些假设下,议价问题具有独特的解决方案,称为NASH讨价还价解决方案,我们建议将其用作多任务学习的原则方法。我们描述了一种新的MTL优化程序NASH-MTL,并为其收敛性得出了理论保证。从经验上讲,我们表明NASH-MTL在各个域中的多个MTL基准上实现了最新的结果。
translated by 谷歌翻译
机器学习的进展(ML)源于数据可用性,计算资源的组合,以及对电感偏差的适当编码。有用的偏差经常利用预测问题的对称性,例如依赖于翻译设备的卷积网络。自动发现这些有用的对称具有大大提高ML系统性能的可能性,但仍然是一个挑战。在这项工作中,我们专注于连续的预测问题,并采取灵感来自Noether定理,以减少发现归纳偏差到Meta学习的有用保守数量的问题。我们提出了挪威网络:在预测函数内优化了Meta学习保存损失的新型架构。我们在理论和实验上示出了Noether网络提高了预测质量,提供了一种用于在顺序问题中发现感应偏差的一般框架。
translated by 谷歌翻译
由于其出色的近似功率和泛化能力,物理知识的神经网络(PINNS)已成为求解高维局部微分方程(PDE)的流行选择。最近,基于域分解方法的扩展Pinns(Xpinns)由于其在模拟多尺度和多体问题问题及其平行化方面的有效性而引起了相当大的关注。但是,对其融合和泛化特性的理论理解仍未开发。在这项研究中,我们迈出了了解XPinns优于拼接的方式和当Xpinns差异的初步步骤。具体地,对于一般多层PinNS和Xpinn,我们首先通过PDE问题中的目标函数的复杂性提供先前的泛化,并且在优化之后通过网络的后矩阵规范结合。此外,根据我们的界限,我们分析了Xpinns改善泛化的条件。具体地,我们的理论表明,XPinn的关键构建块,即域分解,介绍了泛化的权衡。一方面,Xpinns将复杂的PDE解决方案分解为几个简单的部分,这降低了学习每个部分所需的复杂性并提高泛化。另一方面,分解导致每个子域内可用的训练数据较少,因此这种模型通常容易过度拟合,并且可能变得不那么广泛。经验上,我们选择五个PDE来显示XPinns比Pinns更好,类似于或更差,因此证明和证明我们的新理论。
translated by 谷歌翻译
给定来自动态图的图形边缘,我们如何以在线方式将异常得分分配给边缘和子图,以便使用恒定的时间和内存来检测异常行为?例如,在入侵检测中,现有工作试图检测异常的边缘或异常子图,但并非两者兼而有之。在本文中,我们首先将Count-Min草图数据结构扩展到高阶草图。该高阶草图具有保留密集的子图结构的有用属性(输入中的密集子图转换为数据结构中的密集子膜)。然后,我们提出了4种利用这种增强数据结构的在线算法,该算法(a)检测边缘和图异常; (b)在恒定内存和每个新到达边缘的恒定内存和恒定更新时间中处理每个边缘,并且; (c)在4个现实世界数据集上优于最先进的基线。我们的方法是第一种流媒体方法,该方法结合了密集的子图搜索以在恒定内存和时间中检测图形异常。
translated by 谷歌翻译
In data containing heterogeneous subpopulations, classification performance benefits from incorporating the knowledge of cluster structure in the classifier. Previous methods for such combined clustering and classification either 1) are classifier-specific and not generic, or 2) independently perform clustering and classifier training, which may not form clusters that can potentially benefit classifier performance. The question of how to perform clustering to improve the performance of classifiers trained on the clusters has received scant attention in previous literature, despite its importance in several real-world applications. In this paper, first, we theoretically analyze the generalization performance of classifiers trained on clustered data and find conditions under which clustering can potentially aid classification. This motivates the design of a simple k-means-based classification algorithm called Clustering Aware Classification (CAC) and its neural variant {DeepCAC}. DeepCAC effectively leverages deep representation learning to learn latent embeddings and finds clusters in a manner that make the clustered data suitable for training classifiers for each underlying subpopulation. Our experiments on synthetic and real benchmark datasets demonstrate the efficacy of DeepCAC over previous methods for combined clustering and classification.
translated by 谷歌翻译
在许多机器学习应用中,对于模型而言,提供置信分数以准确捕获其预测不确定性非常重要。尽管现代学习方法在预测准确性方面取得了巨大的成功,但产生校准的置信度得分仍然是一个重大挑战。基于采用凸面的培训示例组合的一种流行而简单的数据增强技术,已被经验发现可显着改善各种应用程序之间的置信度校准。但是,混音何时以及如何帮助校准仍然是一个谜。在本文中,我们从理论上证明,混合通过研究自然统计模型来改善\ textit {高维}设置中的校准。有趣的是,随着模型容量的增加,混合的校准益处会增加。我们通过对共同体系结构和数据集的实验来支持我们的理论。此外,我们研究混合如何改善半监督学习的校准。在合并未标记的数据的同时,有时可以使模型降低校准,从而增加混合训练可以减轻此问题并证明可以改善校准。我们的分析提供了新的见解和一个框架,以了解混合和校准。
translated by 谷歌翻译